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Решена актуальная проблема автоматизации построения и анализа распознающих и диагностических 
моделей на основе нейронных сетей. Предложен комплекс критериев сравнения нейромоделей и 
методов их синтеза, содержащий в дополнение к традиционно используемым критериям времени и точности 
критерии, характеризующие логическую прозрачность. Проведены вычислительные эксперименты по 
исследованию предложенных критериев сравнения нейронных сетей путём решения практических задач. 
Ключевые слова: нейронная сеть, распознавание образов, диагностирование, 
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характеризують ломчну прозорсть. Проведено обчислювальн! експерименти з дослёдження запропонованих 
критерйв порвняння нейронних мереж шляхом вирипення практичних завдань. 
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Введение 


В задачах построения распознающих и диагностических моделей широкое рас- 
пространение на практике получили искусственные нейронные сети (НС), благодаря 
их способностям обучаться прецедентам [1], [2]. 

Поскольку на сегодняшний день предложено достаточно много различных типов 
архитектур НС и еще больше существует вариантов реализации сетей каждого типа, 
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то большое значение приобретает задача сравнения и выбора такой модели, реали- 
зуемой НС, которая удовлетворяла бы целому ряду требований относительно качества 
функционирования. 

Одной из наиболее широко применяемых на практике архитектур НС являются 
многослойные НС (МНС) прямого распространения сигнала, для которых предложе- 
ны эффективные методы обучения [1], [3]. Большое видовое разнообразие известных 
методов обучения МНС также делает актуальным сравнение и отбор наиболее 
практически полезных методов, что, в свою очередь, требует разработки соответст- 
вующих критериев сравнения. 

Традиционно используемыми на практике критериями сравнения МНС и мето- 
дов их построения являются минимум достигаемой ошибки и минимум времени 
(числа итераций), затрачиваемых на построение модели [1], [3]. Однако при наличии 
ряда методов, позволяющих получать модели с приемлемыми значениями ошибки и 
примерно одинаковым временем обучения, выбор наилучшего метода и наилучшей 
модели оказывается нетривиальной задачей. 

Целью данной работы является создание критериев, позволяющих количест- 
венно оценивать основные свойства моделей на основе МНС и методов их построения. 


Постановка задачи 


Пусть мы имеем исходную выборку Х = <х, у> — набор 5 прецедентов о за- 
висимости у(х), х= {1х}, уу}, 5 = 1,2, ..., 5, характеризующихся набором № 
входных признаков {х;}, = 1,2, ..., М, где ] — номер признака, и выходным призна- 
ком у. Каждый 5-й прецедент представим как <х”, у>, ^={х5 д, где х’, — значение /-го 
входного, а у’- значение выходного признака для 5-го прецедента (экземпляра) 
выборки, у’ {1,2,..., К}, где К — число классов, К>1. 

МНС можно представить как иерархическую структуру вида: 
А С) о РА 


211? 
где М — число слоёв, №, — число узлов (нейронов) в и-м слое, филу? со- 
ответственно, дискриминантная (весовая) и активационная функции 1-го узла и-го 


слоя, д ”) — значение веса 7-го входа 1-го узла и-го слоя. 


(ыд О (д) (дл 
Множество {у =\"(ф”)} определяет структурные блоки МНС, а {м} 


её параметры. 
Тогда задача построения МНС заключается в задании таких её структуры 


У =? (2) и параметров м, которые удовлетворяют комплексу крите- 
риев © = {©}, где О, — [-й критерий качества МНС. 

Соответственно, для анализа свойств и сравнения методов построения и моде- 
лей МНС необходимо определить показатели ©, , позволяющие количественно вы- 
ражать основные свойства МНС и методов их обучения. 


Критерии сравнения нейромоделей 


Как известно, сходимость итеративных методов обучения МНС, зависит, кроме 
размерности обучающих данных и начальных значений весов, также от задаваемых 
максимально допустимой общей ошибки обучения (критерий качества обучения) и 
количества допустимых циклов обучения (критерий длительности обучения). 
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Эти два критерия останова целесообразно использовать при сравнении итеративных 
методов обучения МНС. Зафиксировав поочередно каждый из критериев останова обуче- 
ния, можно проследить, как для каждого метода обучения МНС при одинаковых обучаю- 
щих выборках меняются время обучения МНС 1%, затраченное количество циклов 
обучения еросй и достигнутая точность (ошибка) Е [1], [3]. 

В [1] для сравнения методов обучения НС предлагается наряду с количеством 
циклов обучения использовать такой критерий, как №, — количество дополнительных 
переменных для организации вычислительного процесса. Под дополнительными 
здесь понимаются переменные, необходимые для сохранения промежуточных ре- 
зультатов вычислений при программной реализации метода обучения. Предпочтение 
следует отдавать тем методам, которые при обучении НС требуют малого числа до- 
полнительных переменных, что связано с ограничением ресурсов вычислительных 
средств. 

Достаточно важной характеристикой любой распознающей системы является 
ее сложность. Исходя из биологической специфики НС, в [2] применительно к ним 
предлагается использовать следующую терминологию: 

— структурная (статическая) сложность системы — описывает построение 
системы из составляющих ее подсистем; 

— вычислительная сложность (сложность управления) — мера вычислительных 
ресурсов, необходимых для детального расчета особенностей динамики системы, 
описывает выполняемые операции обработки информации и характеризует практи- 
ческую сложность детального понимания поведения системы — может быть сведена 
к зависимости вычислительных возможностей (ресурсов вычислительной системы), 
необходимых для моделирования поведения системы, от размера задачи. 

Структурную сложность нейросетевой модели, основными структурными элемен- 
тами которой являются нейроны, будем характеризовать количеством нейронов М, 


М 
которое для МНС определяется по формуле: №, = Ум, Е 
и=1 

Вычислительную сложность нейросетевой модели будем характеризовать числом 
используемых ячеек памяти № м. и количеством времени работы (,, затрачиваемым 
на расчет значений выходов модели при заданных входах для одного экземпляра, 
либо количеством времени работы НС для всех экземпляров обучающей выборки (у. 
или тестовой выборки (у... 

Вычислительную сложность метода синтеза нейросетевой модели будем характери- 
зовать числом используемых ячеек памяти №. и количеством времени, затрачиваемым 
на обучение модели, {55.. 

Очевидно, что число используемых ячеек памяти №... будет равно сумме числа ячеек, 
необходимых для хранения обучающей выборки, числа ячеек, необходимых для хранения 
переменных модели (в случае НС -— весов и порогов), и числа ячеек, необходимых для 


хранения №, дополнительных переменных: №. =, (№ НМА ы 7„М№М,+1,М,, где п, -— 


число ячеек памяти для хранения одного элемента данных обучающей выборки; 
5(№М+Мм) — число элементов данных (размерность) обучающей выборки, включая ко- 


личество элементов данных целевых признаков; „— число ячеек памяти, необходи- 
мых для хранения одного веса сети; №», — количество весов и порогов сети; ",-— число 


ячеек памяти, необходимых для хранения (един: Се дополнительной переменной метода 
обучения. 
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Таких традиционно используемых при сравнении НС и методов их обучения 
показателей, как точность (ошибка) аппроксимации сетью обучающей или тестовой 
выборки и время, затрачиваемое на обучение сети и (или) работу обученной сети 
оказывается недостаточно, поскольку даже несколько НС одного и того же типа, с 
одинаковой топологией, обученные на одних и тех же данных с помощью одного и 
того же метода обучения и обеспечивающие почти одинаковую точность аппрокси- 
мации и сравнимое время обучения и работы, из-за разных начальных состояний (разных 
значений весов перед обучением) могут обладать существенно разным качеством, 
что связано с уровнем логической прозрачности полученной нейросетевой модели, 
избыточностью памяти и связей сети, качеством аппроксимации обучающих данных. 

Поэтому в дополнение к рассмотренным ранее критериям сравнения НС, не- 
обходимо разработать комплекс частных и обобщенных критериев, позволяющих 
количественно оценивать вышеперечисленные свойства нейросетевых моделей, сравни- 
вать их и принимать решение о выборе более оптимальной модели для решения постав- 
ленной задачи. 

Как было отмечено выше, НС обладают памятью, реализуемой весами. Чем 
меньше память сети, тем меньше образов она может запомнить, но если две сети с 
разным объемом памяти обеспечивают требуемую точность распознавания (оцени- 
вания), то сеть с меньшей памятью, очевидно, будет проявлять лучшие обобщающие 
свойства. 

Избыточность памяти сети будем характеризовать с помощью коэффициента 
избыточности для хранения обучающей выборки: 


К, о 1, 5> 0, М> 0. 
5М№ 

Если Ку > 1, то память сети избыточна (размерность памяти сети больше 
размерности обучающей выборки). Если К! = 1, то сеть может запомнить всю 
обучающую выборку (размерность памяти сети равна размерности обучающей выборки). 
Если К! < 1, то сеть не сможет в точности запомнить всю обучающую выборку 
(размерность памяти сети меньше размерности обучающей выборки), однако при этом 
сеть будет проявлять обобщающие и аппроксимирующие способности. 

В случае если количество весов, равных нулю, в НС М№,-о велико, то К; будем 
определять как: 


Поскольку НС являются вычислительными устройствами, весьма важными 
характеристиками являются сложность их аппаратной или программной реализации, 
а также время работы в процессе распознавания одного экземпляра данных. 

Вычислительную сложность 1-го нейрона и-го слоя те будем определять как: 
Те = М(Т + т 2) +Т, и где №№ число входов 1-го нейрона и-го слоя; Т. ` вы) 
— вычислительная сложность одного синапса 1-го нейрона и-го слоя; Т. д — 
вычислительная сложность дискриминантной функции 1-го нейрона и-го слоя для 
обработки двух аргументов; Т` о вычислительная сложность функции активации 1- 
го нейрона п-го слоя. Заметим, что, если 2 (х) = х, то Г о можно положить равной 
нулю. Вычислительные сложности синапсов, дискриминантных функций и функций 
активации определяют с учетом условий реализации сети (на разных ЭВМ с разной 
скоростью работы затраты времени на вычисления будут разными). 
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Вычислительная сложность сети прямого распространения при последова- 
тельной реализации вычислений (при программной реализации на ЭВМ с последо- 
вательной организацией вычислений) Т! определяется как : 


м М, 
Т = нь | 


НЕЕ 1=1 
Вычислительную сложность сети прямого распространения при параллельной 
реализации вычислений (например, при аппаратной реализации сети) Т> будем опре- 
делять по формуле: 
М . 
Т, =». шах те. 
и - 


1=.2,..М, 

Логическая прозрачность сети в значительной степени зависит от общего ко- 
личества связей в сети и количества связей, соединяющих конкретные нейроны 
(количества входов нейронов скрытых слоев). Чем меньше связей, тем проще сеть и 
тем удобнее она для анализа и интерпретации человеком. 

Коэффициент разреженности связей сети прямого распространения определим 
по формуле: 


Коэффициент связанности МНС определим как: 
№ и’=0 


т з 
2. Мом, 
и 
Для коэффициентов связанности и разреженности связей сети прямого распро- 
странения характерны следующие свойства: Кк+Кс=1; 0<К»< 1;0<Кс <1. 
Коэффициент средней связанности нейронной сети прямого распространения 
Км показывает среднее количество входов нейронов всех слоев, кроме первого: 


1 9% 
Ки = М У У (м - м5), 


и=2 1=1 
>.м, 
и=2 


где мы) — число весов 1-го нейрона |-го слоя сети, равных нулю. 


К-=Т=К. = 


Чем больше в сети единичных синапсов (связей, веса которых равны по мо- 
дулю единице), тем проще ее реализация (прежде всего аппаратная) и удобнее 
анализ человеком. 

Долю единичных синапсов в сети прямого распространения будем рассчи- 
тывать по формуле: 


М 
Умом, 


М 
где №,-1 — число весов сети, по модулю равных единице: 0 < №М_ < х ММ, . 
ЦЕ 
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Долю неединичных синапсов в сети прямого распространения Км определим из 
выражения: 


Ку =1-К,=1 №=М. 


У ИИ” 
уз Мом, 
ИТ 


Для долей единичных и неединичных синапсов сети прямого распространения 
характерны следующие свойства: Ку + Ку= 1; 0 < К, < 1;0 < Кк< 1. 

Поскольку логическая прозрачность связей сети зависит в значительной 
степени от разреженности и простоты связей, будем ее характеризовать коэффи- 
циентом, показывающим долю бинарных (нулевых или единичных по модулю) весов в 
общем количестве весов сети. 

Коэффициент логической прозрачности связей сети прямого распространения 
будем определять из выражения: 


Коэффициент логической непрозрачности (размытости) связей сети прямого 
распространения Ку будем рассчитывать как К; =1- Ку =1- (К ВА ) з 

Для коэффициентов логической прозрачности и непрозрачности связей сети 
прямого распространения характерны следующие свойства: Кт + Ку = 1; 0<Кг<1; 
0 < К; < 1. 

Для более точной оценки логической прозрачности будем определять логическую 
прозрачность сети через логическую прозрачность ее элементов. 

Коэффициент логической прозрачности #-го нейрона и-го слоя сети Кк\? будет 
определяться типом используемой функции активации. Для линейной и пороговой 
функций активации примем: Кв” = 1, для всех остальных функций активации 
Кк®) =0. 

Коэффициент логической прозрачности МНС Ки будем рассчитываться как: 


Чем больше Ку, тем выше уровень логической прозрачности сети, и, наоборот, 
чем меньше Ку, тем ниже уровень логической прозрачности сети. 

Одной из важнейших характеристик нейросетевых моделей является качество 
аппроксимации. Качество аппроксимации при одном и том же уровне ошибки тем 
выше, чем меньше используется весов. 

Коэффициент качества аппроксимации нейросетевой модели Кл определим как 
среднюю долю ошибки, приходящуюся на ненулевые веса сети: 


Е. 
А ‚ 
м = Ме 
где Е- совокупная ошибка, допускаемая сетью (например, среднеквадратическая 


ошибка), такая, что Е <Е ‚где & — максимально допустимая ошибка (цель 


обучения). В качестве ошибки Е можно использовать ошибку по обучающей выборке Ев. 
или по тестовой выборке Ех. 


«Штучний 1нтелект» 2014 №1 147 


Субботин С.А. 
3С - 


Вычислительные аспекты реализации 
расчёта критериев сравнения нейромоделей 


Рассмотрим вычислительные аспекты некоторых критериев сравнения методов 
синтеза нейромоделей. 

Поскольку важнейшими характеристиками итеративных методов обучения 
МНС являются время обучения (5., количество затраченных циклов обучения еросй 
и достигнутая ошибка Ё, для отбора наилучшего среди градиентных методов 
обучения МНС целесообразно для различных прикладных задач сравнить методы по 
каждому из данных критериев, зафиксировав поочередно остальные. 

Для неитеративных методов синтеза МНС следует оценивать время обучения 
16. и достигнутую точность (ошибку) Е. 

Значения критериев №, и М, а. будут сильно зависеть от особенностей програм- 
мной реализации каждого метода обучения. При этом для градиентных методов большое 
значение будет иметь способ вычисления производной целевой функции по весам. В связи 
с данными обстоятельствами приведенные выше теоретические оценки данных крите- 
риев целесообразно на практике заменить на следующие: 

И = (м, -м,)+(м, -м,)+ (м. -м,)=м, —М,, 

М.-М, =\ц,М,, М, -М, =1,5(М+М,), М, -М, =п„М 
где М! - размер занятой памяти ЭВМ до загрузки обучающей выборки, Л - размер 
занятой памяти ЭВМ после загрузки обучающей выборки перед созданием пере- 
менных модели НС, М; - размер занятой памяти ЭВМ после создания переменных 
модели и перед обучением НС, М4 - размер занятой памяти ЭВМ перед окончанием 
процедуры обучения НС. Таким образом, для оценки значений критериев №, и Ма. 
следует измерять размеры занятой памяти ЭВМ М\, Мз и Ма. 

Критерии Ма, В, Мн, Мм. 1р.0.› рт. Кь Ть, Т>, Кь, Кс, Км, Ку, Км, Кут, Ку, Кии Кд 
необходимо оценивать для моделей, полученных в результате использования как 
итеративных, так и неитеративных методов. При этом значение критерия № м., будем 


м? 


определять следующим образом: №, „ = (м ,-М, ). 


В том случае, когда в НС доля синапсов с единичными весами велика и зависит 
только от размерности данных, а не от их значений, а сами единичные веса являются 
константными и задаются некоторым несложным правилом, эти веса можно не 
хранить в памяти, используя соответствующее правило в процессе работы модели. 
Тогда эти веса можно исключить из общего числа весов при определении Ку получив 
таким образом формулу для скорректированного коэффициента избыточности К: 

а РИ) Мы 
1 1 
№ № . 

В этом случае К’ будет учитывать только те веса, которые обеспечивают на- 

стройку НС на решение конкретной задачи, а фактическая избыточность сети в этом 


случае окажется существенно меньше. 


Эксперименты и результаты 


Для исследования практической применимости предложенных критериев, а также 
выявления их взаимосвязей было разработано программное обеспечение, автома- 
тизирующее расчет комплекса предложенных критериев для нейромоделей. Построение 
нейромоделей осуществлялось на основе обучающих выборок данных, различной 
размерности для задач распознавания образов, технического и медицинского диагно- 
стирования. 
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На рис. 1. и рис. 2 приведены экспериментально полученные графики зависимостей 
между предложенными показателями свойств нейромоделей на комплексе обучающих вы- 
борок для различных задач распознавания. 
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Рисунок 1 — Графики зависимостей:а — Ку от М, в полулогарифмической системе координат; 
б— Л. м. от К/ в логарифмической системе координат; в — Т!от К) в логарифмической системе 
координат; г — 1. от А! в логарифмической системе координат; д-— Г! от Ки 
в логарифмической системе координат; е — Т› от Ку в логарифмической системе координат 
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Как видно из рис. 1а, коэффициент избыточности Ку тесно связан с количест- 
вом нейронов в сети №, : он возрастает с увеличением и убывает с уменьшением М... 

Объем памяти ЭВМ, занимаемый моделью МНС, №: м. возрастает с увеличением 
коэффициента избыточности К/ (рис. 16). А поскольку ресурсы памяти ЭВМ ограни- 
чены, объем занимаемой памяти №, м. может быть уменьшен либо путем уменьшения 
ны. и М, (что, в свою очередь, частично может быть достигнуто за счет уменьшения 
числа признаков и входов М, количества слоев М и числа нейронов в каждом слое 
№, ), либо за счет использования более эффективных структур данных. 


На рис. 1в изображён график зависимости времени работы нейромодели при после- 
довательной реализации вычислений от коэффициента избыточности сети. С увеличе- 
нием коэффициента избыточности НС наблюдается увеличение времени работы нейро- 
модели при последовательной реализации вычислений. Поэтому для сокращения времени 
Т! необходимо уменьшить избыточность нейромодели. 

На рис. 1г изображён график зависимости времени работы нейромодели для 
обучающей выборки от коэффициента избыточности нейромодели в логарифми- 
ческой системе координат. С увеличением избыточности нейромодели наблюдается 
увеличение времени работы НС для обучающей выборки. 

Теоретические оценки времени распознавания экземпляра на ЭВМ для МНС возра- 
стают с увеличением избыточности Ку и логической прозрачности Ку (рис. 1д и рис. 1е). 
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Рисунок 2 — Графики зависимостей Ко от: а — Ку; б- Ку; в- Кк в полулогарифмической 
системе координат; г— Ктв полулогарифмической системе координат 


150 «Искусственный интеллект» 2014 №1 


Критерии сравнения распознающих моделей на основе нейронных сетей... 


3С 


Как видно из рис. 2, коэффициент логической прозрачности Ки возрастает с 
увеличением Ку, Ку, Кки Кт, и наоборот — убывает с их уменьшением. Следователь- 
но, логическая прозрачность МНС будет возрастать с увеличением долей единичных 
и нулевых весов. При этом существенное увеличение логической прозрачности на 
практике предполагает повышение избыточности нейромодели, что связано, прежде 
всего, с обеспечивающейся при этом структуризацией модели. 

Проведенные эксперименты подтвердили практическую полезность предложен- 
ного комплекса критериев сравнения МНС и позволяют рекомендовать его для исполь- 
зования при решении задач распознавания образов и диагностирования на основе МНС. 


Выводы 


В статье предложено новое решение актуальной проблемы автоматизации 
построения и анализа распознающих и диагностических моделей на основе НС 
посредством разработки критериев сравнения методов построения и моделей МНС. 

Научная новизна полученных результатов состоит в том, что предложен комплекс 
критериев сравнения нейромоделей и методов их синтеза, содержащий в дополнение 
к традиционно используемым критериям времени и точности критерии, характери- 
зующие логическую прозрачность. Это дает возможность автоматизировать выбор 
наиболее удобных для последующего использования нейромоделей и методов их синтеза. 

Практическая значимость полученных результатов заключается в том, что 
проведены вычислительные эксперименты по исследованию предложенных крите- 
риев сравнения МНС путём решения практических задач распознавания образов и 
диагностирования, результаты которого подтверждают практическую пригодность 
предложенного комплекса критериев. 

Дальнейшие исследования могут быть сосредоточены на разработке аналогич- 
ных предложенным критериям критериев сравнения нейронных сетей с латераль- 
ными и обратными связями. 

Работа выполнена в рамках госбюджетной научно-исследовательской темы 
Запорожского национального технического университета «Интеллектуальные ин- 
формационные технологии автоматизации проектирования, моделирования, управ- 
ления и диагностирования производственных процессов и систем» (номер гос. 
регистрации 01120005350). 
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